升级共享GPU调度组件

当您的集群已经安装共享GPU调度组件,但节点GPU驱动版本与集群中已存在的cGPU版本不兼容,或者节点操作系统版本与集群中已存在的cGPU版本不兼容时,您需要将共享GPU调度组件升级到最新版本。

步骤一:确认共享GPU调度组件的升级方式

您需要根据集群共享GPU调度组件(ack-ai-installer)的安装方式选择升级方式。安装共享GPU调度组件有两种方式。

  • 通过云原生AI套件安装(推荐):在云原生AI套件页面安装共享GPU调度组件ack-ai-installer。具体操作,请参见安装共享GPU调度组件

  • 通过应用目录安装(该方式已关闭):在应用市场应用目录页面安装共享GPU调度组件ack-ai-installer。目前该安装方式已关闭。但对于已通过该方式安装的存量组件,您仍然可以在此方式完成组件的升级。

    重要

    如果您卸载了集群中通过此方式安装的组件,再次安装时,您需要开通云原生AI套件服务并完成安装。

如何确定集群中共享GPU调度组件的安装方式?

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > 云原生AI套件

  3. 确认云原生AI套件页面是否显示开通服务字样。

    如有,则表明共享GPU调度组件通过应用目录完成了安装,反之则是通过云原生AI套件完成了安装。

步骤二:升级组件

通过云原生AI套件升级

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > 云原生AI套件

  3. 组件列表区域,定位ack-ai-installer组件并在操作列单击升级

通过应用目录升级

  1. 登录容器服务管理控制台,在左侧导航栏选择集群

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择应用 > Helm

  3. 在Helm列表,定位ack-ai-installer组件,在操作列单击更新,根据页面指引选择最新的Chart版本并完成组件更新。

    重要

    如需进行Chart的自定义配置,请在修改配置后确认组件的更新。

    更新后,请在Helm列表确认ack-ai-installer组件的Chart版本为最新版本。

步骤三:升级存量节点

ack-ai-installer组件升级完成后,并不会升级存量节点的cGPU版本。请参见下方说明,判断节点是否启用cGPU隔离功能。

  • 若集群中包含启用了cGPU隔离功能的GPU节点,还需升级存量节点的cGPU版本。具体操作,请参见升级节点cGPU版本

  • 若集群中不存在已开启cGPU隔离能力的节点,则忽略此步骤。

    说明
    • 若节点上存在标签ack.node.gpu.schedule=cgpuack.node.gpu.schedule=core_mem,代表已启用cGPU隔离能力。

    • 升级存量节点cGPU版本需要停掉节点上的所有业务Pod,请根据业务场景,在低峰期执行此操作。